Este dataset possui 1599 observações sobre a qualidade de vinho tinto divididas em 13 variáveis. Como mostrado abaixo:
str(redwine)
## 'data.frame': 1599 obs. of 13 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ fixed.acidity : num 7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
## $ volatile.acidity : num 0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
## $ citric.acid : num 0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
## $ residual.sugar : num 1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
## $ chlorides : num 0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
## $ free.sulfur.dioxide : num 11 25 15 17 11 13 15 15 9 17 ...
## $ total.sulfur.dioxide: num 34 67 54 60 34 40 59 21 18 102 ...
## $ density : num 0.998 0.997 0.997 0.998 0.998 ...
## $ pH : num 3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
## $ sulphates : num 0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
## $ alcohol : num 9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
## $ quality : int 5 5 5 6 5 5 5 7 7 5 ...
Abaixo segue os nomes das variáveis e um sumário geral do dataset:
names(redwine)
## [1] "X" "fixed.acidity" "volatile.acidity"
## [4] "citric.acid" "residual.sugar" "chlorides"
## [7] "free.sulfur.dioxide" "total.sulfur.dioxide" "density"
## [10] "pH" "sulphates" "alcohol"
## [13] "quality"
summary(redwine)
## X fixed.acidity volatile.acidity citric.acid
## Min. : 1.0 Min. : 4.60 Min. :0.1200 Min. :0.000
## 1st Qu.: 400.5 1st Qu.: 7.10 1st Qu.:0.3900 1st Qu.:0.090
## Median : 800.0 Median : 7.90 Median :0.5200 Median :0.260
## Mean : 800.0 Mean : 8.32 Mean :0.5278 Mean :0.271
## 3rd Qu.:1199.5 3rd Qu.: 9.20 3rd Qu.:0.6400 3rd Qu.:0.420
## Max. :1599.0 Max. :15.90 Max. :1.5800 Max. :1.000
## residual.sugar chlorides free.sulfur.dioxide
## Min. : 0.900 Min. :0.01200 Min. : 1.00
## 1st Qu.: 1.900 1st Qu.:0.07000 1st Qu.: 7.00
## Median : 2.200 Median :0.07900 Median :14.00
## Mean : 2.539 Mean :0.08747 Mean :15.87
## 3rd Qu.: 2.600 3rd Qu.:0.09000 3rd Qu.:21.00
## Max. :15.500 Max. :0.61100 Max. :72.00
## total.sulfur.dioxide density pH sulphates
## Min. : 6.00 Min. :0.9901 Min. :2.740 Min. :0.3300
## 1st Qu.: 22.00 1st Qu.:0.9956 1st Qu.:3.210 1st Qu.:0.5500
## Median : 38.00 Median :0.9968 Median :3.310 Median :0.6200
## Mean : 46.47 Mean :0.9967 Mean :3.311 Mean :0.6581
## 3rd Qu.: 62.00 3rd Qu.:0.9978 3rd Qu.:3.400 3rd Qu.:0.7300
## Max. :289.00 Max. :1.0037 Max. :4.010 Max. :2.0000
## alcohol quality
## Min. : 8.40 Min. :3.000
## 1st Qu.: 9.50 1st Qu.:5.000
## Median :10.20 Median :6.000
## Mean :10.42 Mean :5.636
## 3rd Qu.:11.10 3rd Qu.:6.000
## Max. :14.90 Max. :8.000
Uma das variáveis mais importantes aqui é a qualidade do vinho:
## Warning: Ignoring unknown parameters: binwidth, bins, pad
A qualidade dos vinhos, como mostrado acima, se apresenta como uma distribuição normal, tendo a grande maioria dos vinhos classificados como medianos.
Aqui podemos ver que os vinhos neste dataset possuem em média 7g / dm^3 e temos poucos outliers.
A média de acidez volátil é de 0.5g / dm^3 o que mostra que a grande maioria dos vinhos neste dataset não são tão ácidos. A volatilidade acética indica a quantidade de ácido acético no vinho que é responsável pelo sabor de vinagre quando muito alta.
summary(redwine$citric.acid)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.000 0.090 0.260 0.271 0.420 1.000
Este gráfico mostra que existe uma grande quantidade de vinhos com pouco o quase nada de ácido cítrico. Mas podemos dizer que a média está em 0.26g / dm^3. A acidez cítrica é reponsável pela sensação de frescor e sabor ao vinho.
Açúcar Residual é a quantidade de açúcar que sobra depois da fermentação. Este é gráfico é fortemente enviesado com uma cauda longa e alguns outliers.
Mas o quão distante e quantos seriam esses outliers? É mais fácil ver no gráfico abaixo.
Cloreto de sódio é a quantidade de sódio no vinho. A distribuição é enviesado e existem alguns outliers. Geralmente vinhos bons possuem pouco sódio.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.01200 0.07000 0.07900 0.08747 0.09000 0.61100
Como pode ser visto a média é 0.07 g /dm^3. Mas existem alguns outliers the tornam a quantidade máxima em 0.6 g /dm^3.
Este gráfico é enviesado positivamente o que demonstra que a maioria dos vinhos possuem pouco dióxido de enxofre. Este composto existe em equilíbrio com moléculas SO2 e íons de Bisulfito. Ele previne o crescimento de micróbios e a oxidação do vinho.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.00 7.00 14.00 15.87 21.00 72.00
A média de dióxido de enxofre livre é de 15.87 mg / dm^3 mas existem alguns outliers que fazem a máxima chegar à 72 mg / dm^3.
Aqui temos um gráfico fortemente enviesado positivamente, bem similar ao anterior. O Total de dióxido de enxofre é a soma do dióxido de enxofre livre e o dióxido de enxofre ligado. Existem dois outliers neste dataset.
A densidade da água no vinho segue uma distribuição normal. É uma das poucas features que seguem uma distribuição nesse tipo.
Aqui temos o pH. O pH descreve o quão ácido o vinho é numa escala de 0 à 14. Sendo 0 muito ácido e 14 muito básico (o inverso de muito ácido). Esse gráfico mostra que a acidez acompanha uma distribuição normal tendo a grande maioria dos vinhos uma média 3.3 de acidez. Como mostra o sumário abaixo.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.740 3.210 3.310 3.311 3.400 4.010
Sulfatos agem como anti-microbacterianos e antioxidantes. Este gráfico revela que a grande maioria dos vinhos possui algo entre 0.5 e 0.8 g / dm^3. O gráfico positivamente enviesado. E temos também alguns outliers como mostra o gráfico abaixo.
Mais um gráfico positivamente enviesado, mostrando que existem mais vinhos com uma baixa dose de alcool do que o contrário. A média é: 10.2%
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 8.40 9.50 10.20 10.42 11.10 14.90
Existem 1599 observações e 13 variáveis Interessante que fora pH e densidade que tem uma distribuição normal, as outras variáveis possuem um gráfico enviesado positivamente.
O pH, a acidez volátil e fixa, o álcool, a densidate e os sulfatos parecem ser bem interessantes e merecem uma exploração melhor.
Será que o PH influencia na qualidade dos vinhos?
O pH descreve o quão ácido o vinho é. Aqui podemos ver que não existe uma boa correlação entre essas variáveis já que existem vinhos com qualidade 6 com pH alto e com pH baixo. Essa variável está logo descartada, mesmo sendo observada uma pequena queda de pH para vinhos de maior qualidade ela não é tão forte assim.
O álcool é muito importante na composição dos vinhos, mas quanto ele importa com relação à qualidade?
É muito interessante notar aqui que a partir da qualidade 5, ou seja, partindo dos vinhos medianos em diante a qualidade está bem relacionada a quantidade de álcool. A correlação não é forte já que a grande maioria dos vinhos fica na média de 5 ou 6 mas podemos ver que quanto maior a qualidade do vinho, maior é a quantidade de álcool.
E a ácidez, será que interfere na qualidade? Será que vinhos bons são mais ou menos ácidos?
Interessante notar que quanto menor a quantidade de ácidez, melhor o vinho. De acordo com uma pesquisa feita em sites especializados em vinho, a volatilidade da acidez é o que faz um bom vinho. A quantidade correta de acidez deixa o vinho mais fresco, dá forma e sabor, enfim, é a alma do vinho. Um vinho bom tem a quantidade certa de acidez e isso pode ser visto através do gráfico acima. Apararentemente uma média de 0.4g/dm^3 é o ideal, e os melhores vinhos parecem estar entre 0.3 e 0.5g/dm^3
Este gráfico não pôde render uma explicação satisfatória. É possível observar que a ácidez aumenta um determinado momento mas volta a cair quando chegamos aos vinhos de maior qualidade.
Aqui eu quis entender se a densidade de água continha alguma correlação com o álcool. Vemos pelo gráfico que quanto mais água, menos a porcentagem de álcool. O que faz total sentido já que em 1 litro de vinho quanto menos álcool tivermos mais água. Porém esse dado deve ser analisado como foi feito agora, já que poderiamos ter outros compostos adicionados o que não aumentaria a densidade da água.
Nós vimos antes que quando maior o álcool, menor a densidade. E neste gráfico nós conseguimos notar que quanto mais denso maior a ácidez .
O que realmente interessa para nós? Até agora estamos buscando entender quais fatores são mais importantes para a qualidade do vinho.
Neste gráfico conseguimos entender que vinhos bons, geralmente possuem uma baixa densidade de água e um teor alcoólico maior. O que podemos perceber nesse gráfico é que a inclinação das retas para vinhos de baixa qualidade é menos íngreme e tendem para a esquerda enquanto vinhos de maior qualidade tem uma reta mais íngreme e tendem mais para a direita.
Quanto maior a densidade do vinho, maior é a sua ácidez. Existe uma correlação maior entre os ácidos (ácido fixo e o ácido cítrico). Ácido cítrico existe em apenas pequenas quantidades no vinho. É possível perceber que quanto menor a densidade e a acidez fixa, menor também será a ácidez cítrica o que torna o vinho com menos frescor e sabor.
Não poderia faltar o gráfico que mostra a distribuição da qualidade de vinhos que por sinal é uma distribuição normal. É de se esperar, que como quase tudo nesta vida, tenhamos uma maior quantidade de vinhos medianos que não são nem muito bons nem muito ruins e alguns poucos vinhos se destacando mas nenhum atingindo a qualidade máxima.
Quanto mais densidade de água, menor a quantidade de álcool o que corresponde à um vinho de menor qualidade. Temos um ou outro outlier, o que prova que toda regra tem sua exceção, mas em geral a densidade X álcool afeta a qualidade do vinho. Neste gráfico conseguimos ver as regressões lineares para cada qualidade e podemos notar que para qualidades menores a linha é menos íngreme e para qualidade maiores a linha tende mais à direita e é um pouco mais íngreme. Vinhos mais fracos possuem uma grande densidade de água e pouco álcool. O inverso acontece com vinhos de maior qualidade.
Este dataset se mostrou complicado de se trabalhar porque ele possui muitos vinhos categorizados com qualidade entre 4 e 6, estando sua grande maior na média como mostrou o gráfico de qualidade de vinho com sua distribuição normal. Poderíamos ter extraído ou entendido melhor algumas informações se tivéssemos mais vinhos categorizados como muito ruins ou muito bons.
Ao explorar o dataset as relações que se mostraram mais interessantes foram entre a densidade e o álcool, a densidade, álcool e ácidez e a ácidez fixa, cítrica e densidade. Já sabia por algumas leituras que a ácidez cítrica influênciava no sabor do vinho, mas não imaginava que a quantidade de álcool X densidade seria tão importante para categorizar a qualidade de um vinho.
Foram explorados todas a variáveis, alguns com sumários e gráficos em box plot para entendermos melhor se havia e onde estavam os outliers e podemos perceber que a grande maioria das substancias seguem um enviesamento positivo o que significa que a grande maioria dos vinhos possui essas substancias em baixa quantidade.
Posso concluir que estou satisfeito com o levantamento de informações e dizer que agora entendo um pouco mais sobre o que difere um vinho bom de um vinho ruim.